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摘要 : 


【 目的 】 探索 科学 结构 地 图 中 研究 领域 群 的 自动 识别 方法 , 快速 色 勒 科学 结构 全 貌 , 增加 时 效 性 。[ 方法 】 


利用 特征 词 测度 研究 领域 的 主题 相似 性 , 同时 考虑 研究 领域 的 相对 位 置 关 系 , 将 位 置 相 邻 、 主 题 相 似 的 研究 领域 
划 为 领域 群 。 设 计 有 效 性 评价 指标 对 比 不 同方 法 的 最 优 参 数组 合 ,推荐 最 优 方法 。[ 结果 】 该 方法 能 有 效 地 识别 
出 不 同时 期 科学 结构 地 图 的 领域 群 。[ 局 限 方法 的 有 效 性 是 基于 “科学 结构 地 图 "数据 的 实验 结果 得 到 ,参数 组 
合 是 否 适用 于 其 他 数据 还 有 待 进一步 验证 。[ 结论 】 为 科学 结构 地 图 领域 群 的 自动 识别 提供 了 有 效 方法 。 
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1 3 引 


科学 知识 结构 体系 一 直 是 人 们 研究 的 热点 ， 科 学 
结构 地 图 通过 可 视 化 技术 ,以 直观 形象 的 图 谱 形 式 展 
现 高 度 抽 象 的 科学 , 特别 是 自然 科学 基础 研究 的 宏观 
结构 , 揭示 了 科学 热点 前 沿 间 的 关联 关系 与 发 展 进程 ， 
它 可 以 帮助 人 们 快速 、 全 面 和 形象 地 把 握 科学 总 体态 
势 。 早 在 1965 年 , De Solla Price 就 推测 文献 数据 库 中 
隐 含 着 科学 结构 体系 , 并 提出 通过 整合 期 刊 之 间 的 引 
用 关系 可 以 揭示 学 科 结 构 , 其 至 更 加 细致 地 描绘 研究 
方向 叫 , 随 后 , Carpenter 等 通过 对 SCI 数据 库 中 的 期 刊 
进行 聚 类 分 析 描绘 出 学 科 子 领域 记 ， Small 等 利用 计算 
机 技术 对 高 被 引 科学 文献 聚 类 识别 出 整体 的 专业 结构 
及 之 间 的 关联 关系 , 开启 一 个 自动 探测 科学 结构 的 新 
道路 启 。 近 年 来 ， 随 着 文献 计量 方法 的 发 展 ,科学 结构 
地 图 的 研究 也 不 断 发 展 。 

科学 结构 地 图 研究 的 一 个 重要 问题 是 如 何 解读 。 
目前 绘制 科学 结构 地 图 分 析 单 元 主要 有 引文 、 主 题词 、 
作者 、 期 刊 等 , 其 中 同 被 引 分 析 能 更 好 地 理解 科学 发 
现在 某 个 专题 发 展 中 的 作用 四、 更 详细 地 描绘 学 科 结 
构 特 征 。 实 际 应 用 中 , 直接 通过 同 被 引 聚 类 得 到 的 以 


了 中 


研究 领域 为 基本 单元 的 科学 结构 地 图 可 读 性 不 高 ， 因 
为 将 上 百 个 研究 领域 放 在 一 起 , 读者 很 难 直 观 地 获取 
有 用 信息 , 所 以 研究 者 通常 会 对 每 个 研究 领域 进行 内 
容 分 析 , 并 根据 研究 内 容 的 相似 性 将 众多 的 研究 领域 
划分 到 不 同 的 领域 群 (研究 大 类 ) 中 并 对 其 命名 , 绘制 
出 整个 科学 结构 的 概貌 , 反映 不 同 研 究 大 类 间 的 关联 
关系 。 因 此 领域 群 的 识别 在 科学 结构 地 图 研究 中 有 着 
重要 意义 。 然 而 ,， 随 着 科学 的 发 展 , 新兴 人 研究 领域 不 断 
出 现 和 现 有 研究 领域 的 消亡 , 使 科学 结构 地 图 也 在 发 
展 变化 中 ,如 何 快 速 有 效 地 绘制 科学 结构 地 图 , 并 识 
别 其 领域 群 是 把 握 科 学 发 展 变化 的 关键 和 难点 。 已 有 
的 研究 主要 是 采用 人 工 判读 方法 , 本 研究 旨 在 探索 一 
种 自动 方法 识别 科学 结构 地 图 中 的 领域 群 。 


2 相关 研究 


2.1 科学 结构 地 图 的 绘制 步 又 

(1) 分 析 单 元 的 选择 ， 比 如 引文 、 关 键 词 、 作 者 、 
期 刊 等 , 每 种 单元 都 有 对 应 的 共 现 分 析 ， 如 共 被 引 、 共 
词 、 共 作者 及 期 刊 引 用 等 。 

(2) 确定 这 些 分 析 单 元 之 间 的 关联 。 

(3) 可 视 化 显示 , 把 分 析 单 元 及 它们 之 间 的 关联 
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演化 动力 学 分 析 方 法 与 应 用 研究 "(项 目 编号 : 71173211) 的 研究 成 果 之 一 。 


关系 在 低 维 空间 (通常 是 二 维 ) 里 显示 。 

本 文 涉及 的 科学 结构 地 图 由 作者 所 在 研究 团队 
自主 开发 , 具体 绘制 方法 参见 文献 [5-8]。 其 分 析 单 元 
是 引文 , 通过 对 汤 森 路 透 集团 基本 科学 指标 库 
(Essential Science Indicators, ESD 中 高 被 引 论文 的 同 被 
引 聚 类 , 形成 包含 若干 研究 论文 的 “研究 领域 ”; 采用 
重力 模型 算法 确定 各 个 研究 领域 在 二 维 空间 中 的 布局 
位 置 ,第 一 期 科学 结构 布局 计算 时 初始 位 置 固 定 ， 后 
几 期 布局 采用 与 前 一 期 平行 映射 的 方法 , 保证 布局 位 
置 的 稳定 和 可 对 比 。 研 究 领域 间 的 相对 位 置 关 系 反 映 
了 它们 的 关联 程度 , 距离 越 近 相关 性 越 强 。 

2.2 ”领域 群 识 别 方法 

通过 上 述 流 程 绘制 的 科学 结构 地 图 由 于 研究 领 
域 数量 比较 多 , 无 法 在 图 中 标识 每 个 研究 领域 的 名 称 ， 
因此 其 提供 的 直接 信息 有 限 , 为 了 增加 其 可 读 性 , 研 
究 者 通常 需要 将 研究 领域 划分 到 不 同 的 领域 群 中 。 领 
域 群 也 称 为 研究 大 类 或 类 学 科 结构 ， 是 更 高 层次 的 科 
学 结构 , 识别 科学 结构 地 图 中 的 领域 群 能 绘制 出 整个 
科学 结构 的 概貌 , 便于 研究 者 按 人 研究 大 类 观察 科研 态 
势 。 在 基于 引文 聚 类 生成 的 科学 结构 地 图 中 ， 领 域 群 
识别 通 党 采用 人 工 判读 划分 领域 群 ,自动 识别 方法 的 
研究 还 处 于 探索 阶段 。 

(1) 人 工 判 读 识别 领域 群 

人 工 判 读 是 常用 的 领域 群 识 别 方法 , 研究 者 将 引 
文 聚 类 得 到 的 论文 列表 以 及 从 中 抽取 的 关键 词 信息 提 
供给 相应 的 领域 专家 进行 判读 , 领域 专家 根据 提供 的 
关键 词 和 论文 信息 对 每 个 研究 领域 进行 命名 并 将 其 划 
分 到 不 同 的 研究 大 类 。 根 据 判 读 结果 将 科学 结构 地 图 
中 属于 同一 研究 大 类 下 的 研究 领域 借助 画图 软件 画 入 
不 规则 区 域 中 生成 领域 群 。 在 科学 结构 地 图 系列 专著 
《科学 结构 地 图 2009》 四 《科学 结构 地 图 2012 3 、 
《科学 结构 地 图 2015 以 及 日 本 科学 技术 政策 研究 所 
(NISTEP) 关 于 科学 结构 演化 的 类 似 研究 外 中 均 采 用 人 
工 判 读 的 方法 识别 领域 群 。 人 工 判 读 识 别 领域 群 的 结 
果 最 为 准确 , 但 其 工作 流程 繁琐 对 领域 专家 的 要 求 
较 高 , 会 延迟 科学 结构 地 图 的 发 布 时 间 ， 因 此 最 需 一 
种 有 效 的 自动 识别 方法 来 代替 人 工 判 读 。 

(2) 自动 识别 领域 群 

有 关 领 域 群 自动 识 别 方法 的 研究 还 很 少 , 笔者 所 


聚 类 基础 上 , 尝试 构建 研究 领域 间 的 引用 关系 , 利用 
研究 领域 之 上 的 三 次 聚 类 自动 识别 领域 群 , 但 效果 并 
不 理想 , 分 析 认 为 该 方法 存在 以 下 不 足 

三 次 聚 类 时 ,领域 间 的 引用 关系 是 领域 中 论文 引用 
关系 的 合集 ， 层 次 太 高 ， 这 种 引用 关系 就 会 有 放大 、 失 真 ， 
因此 会 影响 其 聚 类 的 准确 性 ; 

@ 研 究 领 域 在 科学 结构 地 图 中 的 相对 位 置 反 映 了 它们 
之 间 的 关联 程度 ,位 置 关 系 是 识别 领域 群 的 重要 条 件 ， 该 方 
法 没有 考虑 位 置 关系 ,识别 结果 的 准确 度 偏 低 。 

为 了 提升 自动 识别 领域 群 的 准确 性 ， 有 人 研究 者 尝 
试 利 用 研究 领域 间 的 相对 位 置 关系 识别 领域 群 。 
Boyack 等 定义 类 学 科 结 构 ， 利 用 一 个 半自动 方法 将 研 
究 领 域 划 分 到 类 学 科 结 构 组 群 中 。 其 方法 是 将 科学 结 
构 地 图 划分 为 网 格 , 选取 一 系列 特定 的 网 格 作为 学 科 
种 子 ， 以 学 科 种 子 为 中 心 ， 网 格外 接 圆 重 码 部 分 包含 
的 文献 数量 作为 网 格 的 连接 机 制 , 将 其 相 邻 的 、 共 有 
文献 最 多 的 网 格 或 网 格 群 连接 到 一 个 组 群 中 , 重复 该 步 
又 直到 所 有 的 网 格 被 连接 到 一 个 类 学 科 结 构 中 [9 ， 该 方 
法 虽然 考虑 了 研究 领域 间 的 位 置 关 系 , 但 其 过 于 依赖 
选取 的 学 科 种 子 数量 , 不 同 的 学 科 种 子 数量 下 识别 出 
的 领域 群 差别 很 大 ,NISTEP 在 2014 年 发 表 的 K Science 
Map 2010 & 2012》 中 提出 一 种 利用 研究 领域 位 置 关 系 
并 结合 主题 相似 性 识别 领域 群 的 方法 。 研 究 同样 将 科 
学 地 图 划 为 网 格 , 并 按照 包含 的 论文 数量 对 网 格 排序 ， 
依次 计算 网 格 与 一 定 范围 内 其 他 网 格 具有 的 相同 特征 
词 个 数 ,如果 该 值 大 于 姜 值 则 认为 属于 同一 个 候补 领 
域 群 , 重复 上 述 步 又 直到 所 有 的 网 格 都 划分 到 候补 领 
域 群 中 ,最 后 按照 一 定 规则 对 候补 领域 群 进行 删除 、 
合并 得 到 最 终 领 域 群 划分 结果 号 ]。NISTEP 提出 的 方 
法 结合 了 研究 领域 间 的 位 置 关 系 和 主题 相似 性 ， 能 较 
准确 地 识别 科学 结构 地 图 中 的 领域 群 , 但 笔者 在 试验 
中 发 现 , 该 方法 对 科学 结构 地 图 中 研究 领域 密集 的 区 
域 区 分 度 较 低 ， 且 识别 结果 对 参数 敏感 ， 由 于 该 方法 
涉及 多 个 参数 , 实际 应 用 较为 困难 。 

3 研究 方法 

人 研究 领域 在 科学 结构 地 图 中 的 相对 位 置 是 通过 
布局 算法 得 到 , 距离 越 近 的 研究 领域 引用 关联 性 越 
强 , 更 有 可 能 属于 同一 领域 群 ， 因此 位 置 关 系 是 领域 
群 识别 中 必 不 可 少 的 因素 。 而 利用 位 置 关 系 反映 的 是 
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主题 相似 性 , 将 提高 划分 领域 群 的 准确 性 。 针 对 上 述 
调研 方法 的 不 足 , 本 研究 借鉴 NISTEP 在 2014 年 提出 
的 领域 群 识别 方法 ,尝试 两 种 主题 相似 性 测度 方法 ， 
改进 候补 领域 群 识别 方法 ， 意 在 提升 研究 领域 密集 区 
域 的 区 分 度 与 精确 度 , 并 从 上 值 、 领 域 群 识别 数量 、 
领域 群 重合 情况 等 多 个 维度 测评 方法 的 有 效 性 , 通过 
对 比分 析 找 出 最 有 效 的 识别 方法 及 最 优 参数 组 合 。 
3.1 方法 介绍 

(1) 关联 相似 性 测度 

根据 布局 原理 , 位 置 距离 越 近 的 研究 领域 关联 性 
越 强 。 本 研究 根据 研究 领域 的 坐标 范围 将 科学 结构 地 
图 划 为 网 格 , 同一 网 格 下 的 研究 领域 默认 属于 同一 领 
域 群 。 利 用 主题 相似 性 建立 网 格 间 的 连接 机 制 , 将 指 
定 范 围 内 研究 内 容 相似 的 网 格 连接 成 为 领域 群 。 划 分 
网 格 的 原则 需要 注意 网 格 内 研究 领域 的 数量 ， 网 格 稀 
玻 研究 领域 数量 较 多 ， 难 以 区 分 临近 的 领域 群 ; 网 格 
密集 研究 领域 数量 较 少 , 不 能 有 效 建立 网 格 间 的 连接 
机 制 , 识别 出 的 领域 群 规模 偏 小 ， 数量 增多 。 

(2) 主题 相似 性 测度 

为 了 测度 网 格 间 研究 内 容 的 相似 性 ， 本 研究 采 
用 了 两 种 基于 文本 相似 度 的 方法 来 测度 网 格 的 主题 
相似 性 。 

@ 基 于 特征 词 数量 测度 主题 相似 性 , 利用 Alchemy APID 
接口 从 论文 的 题目 和 摘要 中 抽取 描述 研究 领域 主题 的 特征 
词 ， 对 于 任意 需要 测度 相似 性 的 两 个 网 格 ， 分 别 从 包含 的 研 
完 领域 中 选取 出 现 频 次 最 高 的 nm 个 特征 词 ， 统 计 共 同 特征 词 
数量 作为 二 者 之 间 的 相似 度 ， 当 相似 度 高 于 设 定 的 冰 值 时 
则 认为 二 者 属于 同一 领域 群 ; 

@) 基 于 特征 向 量 测度 主题 相似 性 ， 从 研究 领域 的 论文 
题目 和 摘要 中 提取 出 全 部 单词 ， 去除 停 用 词 后 转 为 特征 向 
量 ,用 特征 向 量 夹 角 余弦 值 表示 研究 领域 的 主题 相似 度 ， 当 
两 个 网 格 间 研 究 领 域 的 相似 度 的 平均 值 大 于 设 定 阔 值 时 认 
为 二 者 主题 相似 ， 属 于 同一 领域 群 。 

(3) 候补 领域 群 识别 方法 

本 文 提 出 一 种 动态 的 领域 群 识别 方法 , 与 上 述 基 
于 位 置 的 关联 相似 性 和 主题 相似 性 结合 改进 候补 领域 
群 的 识别 精度 。 

(OD 基于 特征 词 的 静态 识别 方法 

NISTEP 提出 的 领域 识别 方法 是 以 候补 网 格 为 中 心 , 分 
别 计算 周围 网 格 与 候补 网 格 的 相似 度 ， 同 时 将 主题 相似 的 
网 格 划 为 一 个 候补 领域 群 ， 这 种 方法 称 为 静态 识别 法 。 

原理 如 图 1 所 示 ， 从 论文 的 题目 和 摘要 中 抽取 出 现 频次 
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最 高 的 60 个 描述 研究 领域 主题 的 特征 词 ， 根据 包含 的 论文 
数量 将 所 有 网 格 降序 排列 作为 候补 网 格 , 依次 以 每 个 候补 
网 格 为 中 心 ,在 指定 范围 (领域 群 规模 参数 ) 内 遍历 网 格 ， 计 
算 与 候补 网 格 主题 相似 的 网 格 (共同 特征 词 数 大 于 阅 值 ), 用 
椭圆 将 这 些 网 格 连接 起 来 视 为 一 个 候补 领域 群 ， 同时 将 它 
们 从 候补 网 格 中 删除 ,重复 该 步骤 直到 所 有 的 网 格 都 划 入 
领域 群 中 。 


图 1 基于 特征 词 相似 的 领域 群 识别 
( 注 : 图 中 黑色 方块 所 在 网 格 为 候补 网 格 , 圆圈 表示 该 网 格 与 候 
补 网 格 主题 相似 。) 


@) 基 于 特征 词 的 动态 识别 方法 

上 述 方法 用 于 测度 主题 相似 的 特征 词 集合 是 固定 不 变 
的 ， 该 方法 对 网 格 间 的 主题 相似 性 程度 没有 区 分 ， 大 于 阅 值 
的 网 格 相似 性 程度 被 视 为 一 致 ， 同 时 划 入 一 个 领域 群 中 。 而 
科学 结构 地 图 中 研究 领域 的 分 布 并 不 均匀 ， 一些 研究 领域 
密集 的 区 域 可 能 包含 多 个 领域 群 ,并 且 主 题 相似 性 程度 差 
异 较 大 ， 即 各 个 领域 群 内 相似 性 靖 值 差异 较 大 。 而 稀 跌 区 域 
的 网 格 包含 的 共同 特征 词 数 相 对 较 少 ,基于 特征 词 的 静态 
识别 方法 很 难 找到 一 个 赋值 将 密集 区 域 的 领域 群 区 分 开 的 
同时 识别 出 稀 玖 区 域 的 领域 群 。 

为 了 解决 上 述 不 足 ， 研究 提出 动态 提取 特征 词 的 方法 ， 
其 核心 思想 是 候补 领域 群 的 特征 词 是 动态 变化 的 ， 在 识别 
过 程 中 将 相似 性 最 高 的 网 格 逐 步 划 入 候补 领域 群 中 ,每 一 
步 和 迭代 后 重新 抽取 领域 群 的 特征 词 ， 用 动态 的 特征 词 测度 
主题 的 相似 性 。 这 种 动态 的 过 程 可 以 更 好 地 识别 研究 领域 密 
集 区 域 包含 的 领域 群 。 如 图 2 所 示 , 将 候补 网 格 A 周围 的 网 
格 分 为 多 层 ， 用 以 限制 领域 群 的 规模 ,研究 领域 的 距离 越 近 ， 
属于 同一 领域 群 的 可 能 性 越 大 ， 因 此 设 定 从 第 一 层 网 格 开 
始 识别 候补 领域 群 。 以 候补 网 格 A 为 中 心 , 根据 主题 相似 性 
测度 方法 将 第 一 层 网 格 中 与 网 格 A 主题 最 相似 的 网 格 划 入 
候补 领域 A 中 ,图 中 网 格 B6 与 网 格 A 主题 相似 度 最 高 ， 将 
其 划 入 候补 领域 群 A 中 ; 重新 抽取 领域 群 A 的 特征 词 ,测度 
剩余 网 格 与 领域 群 A 的 主题 相似 性 ,接着 将 B4 划 入 候补 领 
域 群 A 中 ; 重复 该 步骤 直到 第 一 层 所 有 高 于 阅 值 的 网 格 都 
划 入 候补 领域 群 A 中 , 并 将 划 入 候补 领域 群 的 网 格 从 候补 
网 格 中 删除 。 以 同样 的 方法 处 理 其 他 指定 层 数 内 的 网 格 ， 最 
后 得 到 以 网 格 A 为 中 心 的 候补 领域 群 。 

图 基于 特征 向 量 的 动态 识别 方法 

本 方法 中 ,两 个 研究 领域 采用 特征 向 量 余弦 夹 角 计算 
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图 2 基于 动态 特征 词 识别 领域 群 


其 相似 度 ， 当 两 网 格 之 间 的 研究 领域 相似 度 的 平均 值 大 于 
设 定 阀 值 时 则 认为 两 个 网 格 主题 相似 。 以 候补 网 格 为 中 心 ， 
将 相似 度 最 大 的 网 格 与 候补 相连 ， 形 成 一 个 新 的 候补 网 格 。 
如 此 迭代， 将 相似 度 最 大 的 网 格 依次 划 入 候补 网 格 中 形成 
领域 群 。 

3.2 ”具体 流程 

(1) 将 科学 结构 地 图 进行 网 格 分 割 , 通常 划 为 
20*20 或 30*30 的 网 格 , 可 根据 研究 领域 的 分 布 情况 
进行 调整 。 

(2) 计算 包含 每 个 网 格 的 密度 (论文 数 ), 根据 密度 
进行 降序 排列 作为 候补 网 格 。 

(3) 按照 候补 领域 群 的 识别 方法 , 依次 以 候补 网 
格 为 中 心 识别 候补 领域 群 ， 直到 所 有 的 候补 网 格 都 划 
人 领域 群 中 。 一 个 领域 群 应 该 包含 至 少 两 个 研究 领域 , 
此 将 只 包含 一 个 研究 领域 的 候补 领域 群 删除 。 

(4) 求 出 候补 领域 群 中 研究 领域 在 X、Y 轴 上 的 
最 大 值 和 最 小 值 以 及 中 心 点 ,以 中 心 点 坐标 为 中 心 ， 
(XmaXmin) 为 轴 方 向 的 长 度 , (Yaa 一 Ya 为 了 轴 方 向 
的 长 度 , 绘制 椭圆 标 识 该 领域 群 。 

(5) 重 和 到 领域 群 删 除 : 由 于 一 个 网 格 可 以 属于 多 
个 领域 群 ,候补 领域 群 存在 重合 的 情况 ， 因 此 需要 删 
除 被 其 他 领域 群 覆 盖 的 领域 群 : 

删除 完全 包含 于 其 他 领域 群 中 的 领域 群 ; 

@@ 在 椭圆 等 式 为 XYA?HYYB3=1 的 情况 下 ， 当 另 一 椭 
中 心 点 x1、yl, 满足 条 件 xl12/A2+Hy12/B2<0.5 时 ， 删 除 面积 较 
小 的 领域 群 ; 

图 重新 细 化 网 格 ， 如 果 一 个 领域 群 有 超过 80% 的 网 格 


包含 于 其 他 领域 群 ， 则 删除 该 领域 群 。 

(6) 重生 区 域 大 的 领域 群 合 并 : 经 过 步骤 (5) 删 除 
之 后 仍 存 在 一 些 交 又 重 又 的 领域 群 ， 当 两 个 重 闪 领 域 
群 的 重 琶 相似 度 大 于 合并 阀 值 时 ， 即 合并 两 个 领域 
群 。 基 于 特征 词 方法 的 合并 阔 值 为 30 个 共同 特征 词 ; 
基于 特征 向 量 方法 的 合并 阔 值 为 0.15。 其 他 小 于 阔 值 
的 重 和 到 情况 是 允许 存在 的 ,因为 这 些 重 和 至 现 象 反 映 了 
研究 内 容 的 交叉 性 。 
3.3 有效 性 测评 

领域 群 的 识别 实质 是 将 主题 相似 的 研究 领域 划分 
在 一 起 ,本 文 的 聚 类 是 模糊 聚 类 ， 即 一 个 研究 领域 可 
以 属于 多 个 大 类 。 因 此 本 文 利用 修改 的 聚 类 分 析 效 果 
评价 指标 下 值 验证 领域 群 识别 结果 的 有 效 性 。 在 实 
际 应 用 中 , 希望 自动 识别 的 结果 尽 可 能 接近 人 工 标 识 
结果 , 反映 科学 结构 中 的 主体 结构 ， 因 此 将 领域 群 自 
动 识别 的 结果 与 人 工 判 读 的 结果 进行 比较 验证 。 对 于 
自动 识别 领域 群 不 能 对 应 人 工 标 识 结果 的 现象 , 通常 
是 1-2 个 , 是 一 些 边缘 上 或 人 工 觉 得 层次 不 够 , 不 予以 
标注 的 聚 类 , 但 其 应 该 也 是 有 道理 和 有 一 定价 值 的 , 在 
本 文 的 有 效 性 评测 中 不 参与 计算 。 对 每 个 人 工 标注 的 领 
域 群 P;, 假设 在 自动 识别 结果 中 存在 一 个 与 之 对 应 的 
领域 群 A;, 这 个 对 应 关系 未 知 。 为 了 发 现 A;, 遍历 所 有 
聚 类 结果 ,分别 计算 准确 率 、 召 回 率 和 下 值 ， 从 中 挑选 
最 优 F 值 及 其 对 应 的 领域 群 。 进一步 对 所 有 领域 群 的 F 
值 作 加 权 平 均 , 得 到 整个 识别 结果 的 F 值 对 于 人 工 标 
注 的 领域 群 Pj, A; 的 准确 率 、 召 回 率 和 下 值 为 : 


|P;NAi| 
A, 


P(P;,Ai) = 
] 
P; (1A; 
oa 
芭 
2P(P;, Ai)- R(P;, Ai) 


F(P., A;)= 
CA P(P;, Ai)+ R(P;,Ai) 


P; 的 下 值 为 : 
F(P;) = max|<i<m F(P;, Ai) 
整个 结果 下 值 的 计算 方法 如 公式 (1) 所 示 : 
8 P. 妨 
F= 2 wi:F(P), wj= 1 是 (D 
加 2 
isl 


原始 的 下 值 评价 适用 于 每 个 人 工 标 注 领域 群 对 应 
一 个 最 优 的 自动 识别 领域 群 的 情况 , 但 实际 上 自动 识 
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别 领域 群 的 数量 大 于 人 工 识别 领域 群 的 数量 ， 因 此 部 
分 自动 识别 出 的 领域 群 在 科学 结构 层级 上 低 于 人 工 标 
注 领域 群 ， 存 在 多 个 自动 识别 领域 群 对 应 同一 个 人 工 
标注 领域 群 的 情况 。 因 此 评价 时 将 70% 的 研究 领域 包 
含 于 同一 人 工 标注 领域 群 的 自动 领域 群 进行 合并 ,再 
计算 F 值 。 由 于 某 些 研究 领域 没有 对 应 的 领域 群 , 本 
研究 在 F 值 的 基础 上 进一步 考虑 了 不 同方 法 的 区 分 度 ， 
用 修正 后 的 Fa 表示 方法 的 有 效 性 。 


总 研究 领域 个 数 一 未 识别 出 领域 群 中 研究 领域 个 数 
总 研究 领域 个 数 


Fa 二 


xF (2) 


4 方法 对 比分 析 


本 文 基于 《科学 结构 地 图 2015》 四 中 的 科学 结构 
地 图 数据 进行 方法 对 比分 析 , 按照 上 文 描述 的 方法 与 
流程 自 编程 序 ,， 绘制 出 不 同时 期 与 不 同 参数 下 的 领域 
群 效果 图 , 利用 修正 的 F 值 指标 比较 分 析 改 进 后 的 方 
法 与 原 方法 的 有 效 性 以 及 不 同 参 数值 对 方法 有 效 性 的 
影响 , 找 出 方法 中 最 优 的 参数 组 合 。 
4.1 数 据 

研究 选取 科学 结构 地 图 2006~2011 和 科学 结构 地 
图 2008~2013 两 个 时 期 的 数据 进行 实验 分 析 ， 如 图 3 
所 示 。 图 3 中 每 一 个 圆 代 表 一 个 研究 领域 ， 圆 的 大 
小 与 研究 领域 包含 的 论文 数量 成 正比 ， 圆 旁边 的 
数字 代表 研究 领域 的 ID 号 。 科 学 结构 地 图 2006~ 
2011 含有 149 个 人 研究 领域 , 科学 结构 地 图 2008~ 


2013 含有 212 个 人 研究 领域 , 将 其 人 工 划 分 为 10 个 
大 类 (包含 2 个 及 以 上 研究 领域 的 领域 群 )， 每 个 大 
类 为 一 个 不 规则 线 区 域 ， 用 不 同 颜色 区 分 。 大 类 各 
称 如 表 1 所 示 。 


(b) 2008~2013 时 期 
图 3 科学 结构 地 图 


表 1 科学 结构 地 图 大 类 表 
大 类 名 称 及 \ ID 
领域 数 1 3 4 5 | 8 9 10 
时 期 
粒子 物理 ”凝聚 太 学 ”纳米 种 合 用 化 学 ” 环 态 当 学 医学 ”经 济 当 时 科学 。 数学 
2006-2011 与 宇宙 学 凝聚 态 物理 学 ”纳米 科技 合成 与 应 用 化 学 ”环境 /生态 学 生物 学 医学 ”经济 学 工程 科学 ”数学 
5 Ss 22 14 14 11 52 2 9 3 
2008~2013 0 凝聚 态 物 理学 ”纳米 科技 合成 与 应 用 化 学 ”环境 /生态 学 生物 学 医学 社会 科学 工程 科学 农业 科学 
7 6 35 8 25 18 77 4 8 3 
4.2 ”有 效 性 分 析 规模 , 不同 识 别 方法 中 各 参数 设 定 有 所 不 同 。 本 研究 
研究 从 Fs 值 、 领 域 群 数量 以 及 重 琶 情况 等 多 个 维 ”将 网 格 划分 为 20*20，30*30 两 种 ; 基于 特征 词 方法 共 


度 对 三 种 方法 有 效 性 进行 验证 , 包括 不 同方 法 、 不 同 参 
数 之 间 的 对 比 ， 以 找 出 最 优 方法 中 的 最 优 参数 组 合 。 
结构 地 图 大 小 为 360*480 像素 ,为 了 使 研究 领域 适 
应 画布 大 小 , 实验 中 对 研究 领域 坐标 做 了 平移 处 理 。 
可 调 参数 主要 包括 网 格 数 、 相 似 度 阔 值 和 领域 群 
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同 特征 词 数量 闵 值 选取 2 个 3 个 .4 个 词 进行 对 比 , 基 
于 特征 向 量 方法 的 相似 度 闵 值 选取 0.07 和 0.12 两 个 值 
进行 对 比 ; 领域 群 规 模 在 静态 方法 中 参考 NSTEP 方 法 
用 绝对 距离 表示 , 经 过 反复 试验 , 将 其 设 定 为 70 像素 
效果 最 佳 , 在 动态 方法 中 用 网 格 层 数 表 示 , 是 一 个 相 
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对 距离 , 可 根据 网 格 的 下 密 进行 调整 ,试验 中 将 该 值 
设 定 为 2。 表 3 和 表 4 是 两 个 时 期 科学 结构 地 图 的 领 
域 群 识别 结果 的 整体 Fu 值 。 
表 3 科学 结构 地 图 2006~2011 领域 群 识别 结果 的 
Fui 值 对 比 
a 网 格 | 动态 特征 词 | 静态 特征 词 特征 向 量 
阔 值 20*20| 30*30 | 20*20 | 30*30 | 20*20 |30*30 
2 0.64 | 0.63 | 0.54 | 0.62 / / 


3( 特 征 向 量 0.07)| 0.70 | 0.62 | 0.57 | 0.49 | 0.68 | 0.65 
4( 特 征 向 量 0.12) 0.68 | 0.59 | 0.53 | 0.34 | 0.63 | 0.61 


表 4 科学 结构 地 图 2008~2013 领域 群 识别 结果 的 
Fui 值 对 比 


网 格 | 动态 特征 词 | 静态 特征 词 | 特征 向 量 


高 , 其 重生 多 出 现在 关联 性 较 强 和 交叉 学 科 领 域 之 间 ， 
分 析 认 为 这 些 重 到 是 合理 的 。 

综合 看 来 , 基于 特征 词 的 静态 识别 方法 在 研究 领 
域 密集 区 域 网 格 间 的 主题 相似 性 程度 差异 较 大 , 简单 
地 将 高 于 阅 值 的 网 格 划 入 领域 群 中 导致 识别 结果 的 区 
分 度 较 低 , 识别 出 的 领域 群 数量 偏 少 , 重合 度 较 低 , Fui 
值 最 小 ， 且 该 方法 对 参数 更 加 敏感 , 尤其 是 将 网 格 划 
分 为 30*30 时 ， 随 着 相似 度 阔 值 的 增加 ， 领 域 群 数量 
会 快速 增加 ， 识 别 效果 显著 降低 。 基 于 动态 特征 词 方 
法 能 有 效 识别 出 关联 性 较 强 的 学 科 领 域 , 识别 出 的 领 
域 群 数量 多 于 基于 静态 特征 词 方法 , 重生 度 较 高 ,Fa 
值 较 大 。 相 较 于 其 他 两 种 方法 ,基于 特征 向 量 方法 的 参 
数 选取 较为 困难 , 虽然 在 2008~2013 时 期 Fs 值 较 高 , 但 


交 值 20*20 | 30*30 | 20*20 | 30*30 | 20*20 | 30*30 
2 0.71 | 0.72 | 0.60 | 0.54 / / 

3( 特 征 向 量 0.07) 0.70 | 0.72 | 0.64 | 0.61 | 0.68 | 0.65 

4( 特 征 向 量 0.12)| 0.66 | 0.69 | 0.50 | 0.52 | 0.77 | 0.76 


分 析 可 以 看 出 , 在 两 个 不 同时 期 的 科学 结构 地 图 
下 , 研究 提出 的 基于 动态 的 识别 方法 整体 上 占 优 。 其 
中 基于 动态 特征 词 的 识别 结果 的 Fui 值 较 高 且 变 化 范 
围 较 小 , 表明 该 方法 不 仅 识别 结果 更 为 精准 而 且 对 参 
数 的 敏感 度 较 低 , 识别 结果 更 加 稳定 。 对 比 两 个 时 期 ， 
当 科学 结构 地 图 中 研究 领域 数量 较 多 时 (2008~2013 时 
期 ), 该 方法 在 30*30 的 网 格 下 识别 的 效果 更 好 ,此 时 
随 着 共同 特征 词 阔 值 的 增加 Fu 值 减 小 ; 而 当 研究 领域 
数量 较 少 时 (2006~2011 时 期 ), 20*20 网 格 下 的 Fu 值 更 
高 一 些 ,共同 特征 词 辣 值 设 为 3 时 效果 最 好 。 

从 领域 群 数量 来 看 ， 总 体 趋 势 是 随 着 网 格 密度 和 
相似 度 阀 值 的 增加 , 识别 出 的 领域 群 数 增多 , 规模 变 
小 。 同 一 时 期 不 同方 法 和 参数 之 间 的 领域 群 数量 变化 
范围 不 大 ，2008~2013 时 期 识别 出 的 领域 群 数量 在 
13-16 个 之 间 , 由 于 2006~2011 时 期 研究 领域 数量 较 少 
且 分 布 稀 蚊 ,识别 出 的 领域 群 数量 略 多 于 前 者 , 在 
14-19 个 之 间 。 相同 参数 下 ,基于 动态 特征 词 的 方法 识 
别 出 的 领域 群 数量 多 于 基于 静态 特征 词 方法 ， 因 为 前 
者 能 更 加 稳定 地 将 凝聚 态 物 理学 、 纳 米 科 技 以 及 合成 
应 用 化 学 等 关联 性 较 强 的 领域 区 分 开 。 

领域 群 的 重 赦 情况 与 领域 群 数量 变化 类 似 , 随 着 
网 格 密 度 和 相似 度 闷 值 的 增加 ,， 重 又 部 分 增加 。 对 比 
不 同方 法 , 基于 特征 向 量 方法 重 释 度 最 低 ， 其 次 是 基 
于 静态 特征 词 方法 , 基于 动态 特征 词 方 法 的 重生 度 最 


两 时 期 科学 结构 地 图 的 识别 效果 差异 很 大 , 说 明 该 方 
法 不 稳定 , 对 节点 量 小 的 网 络 区 分 效果 不 是 很 好 。 
4.3 结 果 

可 以 看 出 , 改进 后 的 基于 特征 词 的 动态 识别 方法 
能 较 稳定 、 有 效 地 识别 科学 结构 地 图 的 领域 群 , 研究 分 
别 选取 该 方法 最 优 参 数组 合 下 识别 的 两 时 期 领域 群 效 
果 图 ( 见 图 4) 作 为 实验 结果 进行 说 明 , 其 中 椭圆 表 示 自 
动 识别 出 的 领域 群 ,椭圆 中 间 的 红色 数字 代表 领域 群 
的 也 号 , 黑色 数字 代表 研究 领域 的 名 号 , 表 5 给 出 了 人 
工 标注 的 领域 群 和 自动 识别 结果 的 对 应 关系 及 其 下 值 。 
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图 4 领域 群 识别 效果 图 (网 格 : 20*20， 共同 特征 词 : 3) 
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表 5 领域 群 ID 对 应 关系 


人 工 标注 人 D 1 多 3 4 6 9 8 9 10 
2006~2011 3 8 2 4 6 16 1,18,13,5 22 15 7 

F(P;)) 0.91 0.67 0.77 0.59 0.96 0.36 0.88 1.00 0.50 0.29 
ID 2008~2013 25, 30 32 23 24 5,7 36 15, 4, 35 3 13 35 
F(P;) 0.88 0.38 0.81 0.55 0.85 0.44 0.88 0.67 0.18 0.13 


研究 重点 关注 了 改进 后 的 方法 对 粒子 物理 与 宇宙 
学 、 凝 聚 态 物理 学 、 纳 米 科 技 、 合 成 与 应 用 化 学 、 环 
境 /生态 学 、 生 物 学 、 医 学 等 7 个 较 大 领域 群 的 识别 效 
果 。 从 两 时 期 科学 结构 地 图 的 实验 结果 可 以 看 出 , 该 
方法 都 能 准确 识别 出 7 个 领域 群 的 位 置 , 粒子 物理 与 
宇宙 学 、 环 境 /生态 学 2 个 领域 群 , 群 内 研究 领域 密度 
大 , 与 其 他 领域 群 的 关联 程度 弱 ， 能 被 精确 识别 ; 凝 
聚 态 物理 学 、 纳 米 科 技 、 合 成 与 应 用 化 学 3 个 领域 群 
所 在 区 域 的 研究 领域 十 分 密集 , 人 研究 内 容 关 联 程 度 高 ， 
基于 特征 词 的 静态 识别 方法 很 难 将 其 区 分 开 , 通常 只 
能 识别 出 2 个 领域 群 , 改进 的 方法 能 有 效 地 区 分 出 3 
个 领域 群 , 但 它们 之 间 的 重 又 部 分 较 多 ,规模 较 小 的 
领域 群 准确 率 偏 低 ; 生物 学 的 研究 领域 分 布 相对 松散 
且 与 医学 存在 交叉 ,致使 两 时 期 科学 结构 地 图 中 该 领 
域 群 的 F 值 都 不 高 , 但 都 识别 出 其 研究 领域 集中 分 布 
的 区 域 ; 医学 是 包含 研究 领域 最 多 的 交叉 学 科 , 改进 
后 的 方法 将 其 所 在 区 域 划 为 多 个 领域 群 , 研究 认为 这 
是 合理 的 ,因为 从 领域 群 规模 来 看 ， 医 学 相 较 于 其 他 
领域 群 是 更 高 层级 的 科学 结构 ， 其 可 以 细 分 为 多 个 子 
领域 群 。 分 析 注 意 到 , 在 科学 结构 地 图 2008~2013 的 
识别 结果 中 ,工程 科学 的 E 值 只 有 0.18, 是 由 于 其 包 
含 的 研究 领域 分 布 在 地 图 的 不 同 区域 ， 导 致 不 能 有 效 


识别 。 


本 文 探索 了 以 研究 领域 为 基本 单元 的 科学 结构 地 
图 的 领域 群 自 动 识别 方法 ， 并 通过 实验 对 比分 析 找 出 
方法 中 最 优 的 参数 组 合 。 结 合 研 究 领域 间 的 相对 位 置 
关系 和 主题 相关 性 , 将 地 图 划分 为 网 格 , 并 利用 特征 
词 测 度 研究 主题 相似 性 ， 以 此 建立 网 格 之 间 的 连接 机 
制 , 采用 三 种 不 同 的 领域 群 识别 方 法 自动 划分 出 领域 
群 。 利 用 聚 类 分 析 中 基于 人 工 标注 篮 的 F 值 评测 领域 
群 自动 识别 方法 的 有 效 性 , 将 不 同方 法 的 识别 结果 与 
人 工 判别 的 领域 群 进行 对 比分 析 。 


现代 图 书 情报 技术 


对 比 不 同方 法 的 识别 结果 , 发 现 研究 提出 的 改进 
的 动态 识别 方法 相对 准确 地 识别 出 科学 结构 地 图 中 的 
领域 群 , 尤其 是 动态 特征 词 方法 对 研究 领域 密集 的 区 
域 有 较 好 的 区 分 度 ， 且 对 参数 敏感 度 较 低 ， 比 较 稳定 。 
基于 特征 向 量 方法 虽然 在 某 种 情况 下 Fai 值 较 高 , 但 在 
不 同 数据 集 下 识别 结果 不 稳定 ， 当 没有 人 工 判别 的 复 
可 供 参考 时 , 难以 选择 最 优 参 数 ， 且 当 数 据 量 很 大 时 
计算 复杂 度 高 。 应 用 时 可 以 根据 实际 情况 进行 方法 的 
选择 或 使 用 两 种 方法 的 结合 来 确定 合适 的 参数 。 

研究 中 有 关 方 法 的 结论 均 是 以 《科学 结构 地 图 
2015 > 中 的 数据 实验 得 到 ,后 续 进 一 步 对 其 他 数据 集 
的 科学 结构 地 图 进行 验证 。 
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Auto-Identifying Research Area Groups in Science Map 
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Abstract: [Objective] This paper aims to establish an automatic method to identify research area groups and outline the 


Sclence map quickly. [Methods] First, we used feature words to measure topic similarity, and then divided adjacent 


research areas with similar/related topics into groups. Second, we designed an effectiveness evaluation index to 


compare different optimal parameters combination. [Results] The proposed method could identify research area groups 


in science maps effectively. [Limitations] Our study was conducted with data from Mapping Science Structure 2015. 


More research is needed to investigate the proposed method’s compatibility with other cases. [Conclusions] The 


proposed method could automatically identify research area groups in the science map. 
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